Trait datafusion::dataframe::DataFrame[−][src]

pub trait DataFrame: Send + Sync {
Show 17 methods
    fn select_columns(&self, columns: &[&str]) -> Result<Arc<dyn DataFrame>>;
    fn select(&self, expr: Vec<Expr>) -> Result<Arc<dyn DataFrame>>;
    fn filter(&self, expr: Expr) -> Result<Arc<dyn DataFrame>>;
    fn aggregate(
        &self, 
        group_expr: Vec<Expr>, 
        aggr_expr: Vec<Expr>
    ) -> Result<Arc<dyn DataFrame>>;
    fn limit(&self, n: usize) -> Result<Arc<dyn DataFrame>>;
    fn union(&self, dataframe: Arc<dyn DataFrame>) -> Result<Arc<dyn DataFrame>>;
    fn sort(&self, expr: Vec<Expr>) -> Result<Arc<dyn DataFrame>>;
    fn join(
        &self, 
        right: Arc<dyn DataFrame>, 
        join_type: JoinType, 
        left_cols: &[&str], 
        right_cols: &[&str]
    ) -> Result<Arc<dyn DataFrame>>;
    fn repartition(
        &self, 
        partitioning_scheme: Partitioning
    ) -> Result<Arc<dyn DataFrame>>;
    fn collect<'life0, 'async_trait>(
        &'life0 self
    ) -> Pin<Box<dyn Future<Output = Result<Vec<RecordBatch>>> + Send + 'async_trait>>
    where
        'life0: 'async_trait,
        Self: 'async_trait;
    fn execute_stream<'life0, 'async_trait>(
        &'life0 self
    ) -> Pin<Box<dyn Future<Output = Result<SendableRecordBatchStream>> + Send + 'async_trait>>
    where
        'life0: 'async_trait,
        Self: 'async_trait;
    fn collect_partitioned<'life0, 'async_trait>(
        &'life0 self
    ) -> Pin<Box<dyn Future<Output = Result<Vec<Vec<RecordBatch>>>> + Send + 'async_trait>>
    where
        'life0: 'async_trait,
        Self: 'async_trait;
    fn execute_stream_partitioned<'life0, 'async_trait>(
        &'life0 self
    ) -> Pin<Box<dyn Future<Output = Result<Vec<SendableRecordBatchStream>>> + Send + 'async_trait>>
    where
        'life0: 'async_trait,
        Self: 'async_trait;
    fn schema(&self) -> &DFSchema;
    fn to_logical_plan(&self) -> LogicalPlan;
    fn explain(&self, verbose: bool) -> Result<Arc<dyn DataFrame>>;
    fn registry(&self) -> Arc<dyn FunctionRegistry>;
}

Expand description

DataFrame represents a logical set of rows with the same named columns. Similar to a Pandas DataFrame or Spark DataFrame

DataFrames are typically created by the read_csv and read_parquet methods on the ExecutionContext and can then be modified by calling the transformation methods, such as filter, select, aggregate, and limit to build up a query definition.

The query can be executed by calling the collect method.

let mut ctx = ExecutionContext::new();
let df = ctx.read_csv("tests/example.csv", CsvReadOptions::new())?;
let df = df.filter(col("a").lt_eq(col("b")))?
           .aggregate(vec![col("a")], vec![min(col("b"))])?
           .limit(100)?;
let results = df.collect();

Trait datafusion::dataframe::DataFrame[−][src]

Required methods

fn select_columns(&self, columns: &[&str]) -> Result<Arc<dyn DataFrame>>

fn select(&self, expr: Vec<Expr>) -> Result<Arc<dyn DataFrame>>

fn filter(&self, expr: Expr) -> Result<Arc<dyn DataFrame>>

fn aggregate( &self, group_expr: Vec<Expr>, aggr_expr: Vec<Expr>) -> Result<Arc<dyn DataFrame>>

fn limit(&self, n: usize) -> Result<Arc<dyn DataFrame>>

fn union(&self, dataframe: Arc<dyn DataFrame>) -> Result<Arc<dyn DataFrame>>

fn sort(&self, expr: Vec<Expr>) -> Result<Arc<dyn DataFrame>>

fn join( &self, right: Arc<dyn DataFrame>, join_type: JoinType, left_cols: &[&str], right_cols: &[&str]) -> Result<Arc<dyn DataFrame>>

fn repartition( &self, partitioning_scheme: Partitioning) -> Result<Arc<dyn DataFrame>>

fn collect<'life0, 'async_trait>( &'life0 self) -> Pin<Box<dyn Future<Output = Result<Vec<RecordBatch>>> + Send + 'async_trait>> where 'life0: 'async_trait, Self: 'async_trait,

fn execute_stream<'life0, 'async_trait>( &'life0 self) -> Pin<Box<dyn Future<Output = Result<SendableRecordBatchStream>> + Send + 'async_trait>> where 'life0: 'async_trait, Self: 'async_trait,

fn collect_partitioned<'life0, 'async_trait>( &'life0 self) -> Pin<Box<dyn Future<Output = Result<Vec<Vec<RecordBatch>>>> + Send + 'async_trait>> where 'life0: 'async_trait, Self: 'async_trait,

fn execute_stream_partitioned<'life0, 'async_trait>( &'life0 self) -> Pin<Box<dyn Future<Output = Result<Vec<SendableRecordBatchStream>>> + Send + 'async_trait>> where 'life0: 'async_trait, Self: 'async_trait,

fn schema(&self) -> &DFSchema

fn to_logical_plan(&self) -> LogicalPlan

fn explain(&self, verbose: bool) -> Result<Arc<dyn DataFrame>>

fn registry(&self) -> Arc<dyn FunctionRegistry>

Implementors

impl DataFrame for DataFrameImpl

fn select_columns(&self, columns: &[&str ]) -> Result<Arc<dyn DataFrame>>

fn aggregate(
&self,
group_expr: Vec<Expr>,
aggr_expr: Vec<Expr>
) -> Result<Arc<dyn DataFrame>>

fn join(
&self,
right: Arc<dyn DataFrame>,
join_type: JoinType,
left_cols: &[&str ],
right_cols: &[&str ]
) -> Result<Arc<dyn DataFrame>>

fn repartition(
&self,
partitioning_scheme: Partitioning
) -> Result<Arc<dyn DataFrame>>

fn collect<'life0, 'async_trait>(
&'life0 self
) -> Pin<Box<dyn Future<Output = Result<Vec<RecordBatch>>> + Send + 'async_trait>> where
'life0: 'async_trait,
Self: 'async_trait,

fn execute_stream<'life0, 'async_trait>(
&'life0 self
) -> Pin<Box<dyn Future<Output = Result<SendableRecordBatchStream>> + Send + 'async_trait>> where
'life0: 'async_trait,
Self: 'async_trait,

fn collect_partitioned<'life0, 'async_trait>(
&'life0 self
) -> Pin<Box<dyn Future<Output = Result<Vec<Vec<RecordBatch>>>> + Send + 'async_trait>> where
'life0: 'async_trait,
Self: 'async_trait,

fn execute_stream_partitioned<'life0, 'async_trait>(
&'life0 self
) -> Pin<Box<dyn Future<Output = Result<Vec<SendableRecordBatchStream>>> + Send + 'async_trait>> where
'life0: 'async_trait,
Self: 'async_trait,